EvoClass
AI012
การศึกษาเชิงลึกเกี่ยวกับโมเดลภาษาขนาดใหญ่
ตัวแทนอัตโนมัติ หลักการเรียนรู้เชิงเสริมจากข้อมูลมนุษย์ (RLHF) และการจัดสมดุลด้านความปลอดภัย
เป้าหมายการเรียนรู้
- วิเคราะห์ องค์ประกอบทางสถาปัตยกรรมของตัวแทนแบบกราฟิก (GUI agents) รวมถึงโมดูลการวางแผน การตัดสินใจ และการสะท้อนกลับในระบบตัวแทนหลายตัว
- อธิบาย กลไกของการเรียนรู้เชิงเสริม (RL) และการเรียนรู้เชิงเสริมจากข้อมูลมนุษย์ (RLHF) โดยเฉพาะบทบาทของโมเดลผลตอบแทน (reward models) และอัลกอริธึม PPO ในการจัดให้พฤติกรรมของตัวแทนสอดคล้องกับค่าทางสังคมของมนุษย์
- ประเมิน ความเสี่ยงด้านความปลอดภัยและปัญหาด้านความน่าเชื่อถือของตัวแทนอัตโนมัติ รวมถึงข้อผิดพลาดที่เกิดจากการแจกแจงข้อมูลที่ไม่เคยเห็นมาก่อน (OOD errors) การโจมตีเพื่อหลุดพ้นจากข้อจำกัด (jailbreak attacks) และการรบกวนจากสภาพแวดล้อม